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摘 要 : 


[目的 /意义 ] 旨 在 对 大 量 的 中 文 专利 实现 快速 分 类 ,满足 专利 审查 以 及 情报 分 析 等 工作 的 要 求 。 
会 专利 文本 的 固有 格式 以 及 存在 多 个 IPC 分 类 号 的 实际 情况 ,将 多 示例 多 标签 学 习 应 用 于 专利 自动 分 


[方法 /过 程 ] 结 
类 中 ,在 介 


绍 几 种 经 典 的 多 示例 多 标签 模型 的 基本 原理 之 后 ,将 这 些 模型 运用 于 中 文 专利 IPC 分 类 号 的 确定 。|[ 结果 /结论 ] 


实验 证 明 , 多 示例 多 标签 模型 适合 运用 在 专利 的 自动 分 


分 类 中 ,并 且 从 Average precision, Hamming Loss, Ranking 


Loss, One Error, Coverage, Training time 等 指标 分 析 可 以 发 现 ,MIMLRBF 模型 能 快速 、 准 确 地 运用 在 中 文 专 利 IPC 


分 类 号 的 确定 中 ,为 大 规模 专利 的 自动 分 类 提供 借鉴 。 


see. 专利 分 类 IPC 分 类 号 ”多 示例 多 标签 
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os, 同时 也 对 专利 的 管理 分析、 
面 握 出 了 更 高 的 要 求 。 
>< 专 利 分 类 是 对 海量 专利 文献 组 织 检索、 分析 和 管 
mer Et, AMER EROR ERE RUD IR 
包括 国际 专利 分 类 了 PC 美国 专利 分 类 USPC 欧洲 专 
FIGE ECLA .日 本 专利 分 类 FI/F-term 和 联合 专利 分 
类 CPC 等 ”, 依 据 以 上 的 体系 进行 专利 分 类 使 得 专利 
的 快速 检索 .定位 成 为 可 能 。 但 是 , 现 阶 段 的 专利 分 类 
号 的 确定 主要 依靠 人 工 判断 ,存在 受 标注 人 知识 结构 
影响 等 丙 端 ,因此 ,引入 智能 化 技术 解决 专利 的 分 类 问 
题 对 于 提升 分 类 效率 和 准确 率 具有 重要 的 意义 。 

io 自动 化 分 类 系统 主要 包含 两 方面 的 研 
究 ” :一 是 专利 文本 的 特征 提取 算法 ;二 是 专利 文本 分 
类 算法 。 在 特征 提取 方面 应 用 最 为 广泛 的 专利 特征 提 
取 算 法 是 词 袋 法 ( Bag of Words, BOW) 和 词 频 - 反 向 
词 频 (Term Frequency-Inverse Document Frequency, TF- 


Se 


IDF) ,但 是 两 种 模型 都 舍弃 了 文本 中 大 量 的 信息 ,因此 
词 向 量 (Word Embedding) “开始 受到 关注 ,较为 经 典 
的 词 向 量 模型 有 连续 词 袋 模型 ( Continuous of 
Words, CBOW ) 与 Skip-Gram piu ua 

ALBERT 预 训练 的 动态 词 向 量 代替 传统 Word2vec 
方式 训练 的 静态 词 向 量 ,提升 了 词 向 量 的 表征 能 力 ; 余 
本 功 等 “将 专利 文本 分 别 映射 为 Word2vec 词 向 量 序 
列 和 POS 词性 序列 ,使 用 两 种 特征 通道 训练 模型 。 在 
专利 文本 分 类 方法 研究 领域 ,传统 的 机 絮 学 习 方 法 经 
常 被 用 在 专利 分 类 中 ,包括 朴素 贝 叶 斯 算法 (Naive 
Bayesian, NB) „K 最 近邻 (人 -Nearest Neighbor, KNN) 、 
支持 向 量 机 (Support Vector Machine, SVM ) .逻辑 回归 
( Logistics Regression, LR) HEIER REE" S ;近年 
来 ,深度 学 习 技 术 也 被 广泛 应 用 在 专利 分 类 中 ,其 中 有 
基于 神经 网 络 的 方法 ,例如 基于 卷 积 神经 网 络 ( Convo- 
lutional Neural Network, CNN) ?! 双向 门 控 循 环 单元 
BiGRU) ^ 、 门 控 


( Bidirectional Gating Recurrent Unit, 
循环 单元 ( Gated Recurrent Unit, GRU) ^ 等 神经 网 络 
技术 ,还 有 学 者 将 其 与 其 他 方法 进行 结合 ,例如 周 成 
A50 Xt T. E] 2] ZH It Sf (Self-Organizing Feature Map, 
SOM) 和 SVM 的 专利 分 类 模型 使 用 自 组 织 映射 方法 确 
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定 专利 类 别 ,采用 随机 森林 (Random Forest, RF) 进行 
重要 性 排序 和 特征 选择 ;Y，Lu 等 ”利用 长 短期 记忆 
网 络 (Long Short-Term Memory, LSTM) 与 基于 注意 力 
( Attention) 的 双向 LSTM 相 结合 形成 模型 训练 专利 语 


每 个 段落 可 视 为 示例 ,而 文章 也 可 以 被 赋予 多 个 主题 。 

专利 文本 一 般 具 有 固定 格式 ,包括 标题 ,摘要 、 权 
利 要 求 说明书、 说 明 书 附 图 等 部 分 ,这 些 部 分 正好 可 
以 作为 多 个 示例 ,而 这 多 个 示例 也 组 成 了 一 个 包 , 也 就 


料 , 通 过 Softmax 分 类 模型 进行 分 类 ; 昌 囊 成 等 ”基于 
Word2Vec ,CNN ,ff& Fd Z& p] 2& ( Recurrent Neural Net- 
work, RNN) „Attention 机 制 等 深度 学 习 技 术 ,在 考虑 专 
利文 本 语序 特征 、 上 下 文 特征 以 及 分 类 关键 特征 的 前 
提 下 ,设计 了 7 种 深度 学 习 模型 。 

上 述 方法 从 各 个 角度 对 专利 分 类 进行 了 研究 ,也 
取得 了 不 错 的 效果 ,但 是 这 些 方 法 未 考虑 到 专利 文本 
层次 结构 明显 ,主题 描述 规范 、 包 含有 多 个 分 类 号 等 特 
有 的 结构 。 近 年 来 ,多 示例 多 标签 ( Multi-Instance 
Multi-Label learning, MIML) 学 习 是 一 种 发 展 极 其 迅速 
器 学 习 模 型 ,在 文本 、 图 像 分 类 中 取得 不 错 的 效 
SN” 。 因 此 ,本 研究 结合 专利 文本 的 固有 格式 以 及 
多 多 个 分 类 号 的 实际 情况 ,研究 基于 MIML 的 专利 
动 分 类 方法 并 进行 评价 。 


一 组 含有 标签 的 包 (Bag) 组 成 ,若干 示例 
且 一 个 包 可 以 对 应 一 个 或 者 多 个 标 
G 老 一 个 包 中 至 少 存在 一 个 该 标签 的 正 例 , 则 这 个 包 


有 对 应 的 标签 , 若 一 个 包 中 不 存在 该 标签 的 正 例 , 则 该 


包 内 有 对 应 的 标签 。 如 图 1 Br: 
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图 1 多 示例 多 标签 学 习 


MIML 通过 对 已 经 标定 类 别 的 包 来 建立 学 习 模型 ， 
然后 根据 该 模型 预测 未 知 包 的 所 属 标签 。 现 实 中 的 很 
多 问题 也 适用 于 这 个 学 习 模 型 ,例如 图 像 分 类 ,文本 分 
类 。 图 像 分 类 中 可 以 将 一 副 图 像 看 作 一 个 包 , 图 像 可 
以 分 割 成 多 个 区 块 ,这 些 区 块 可 以 作为 多 个 示例 ,而 一 
幅 图 像 也 可 以 对 应 很 多 的 语义 标签 ,例如 海滩 、 云 .大 
海 等 。 文 本 分 类 中 ,每 篇 文章 可 以 作为 一 个 包 , 文 章 的 


是 一 篇 专利 文本 ,该 专利 也 对 应 一 个 或 者 多 个 标签 , 因 
此 专利 文本 具有 多 示例 多 标签 特征 。 如 表 1 所 示 , 可 
以 将 这 篇 专利 看 成 一 个 包 ,专利 名 称 .摘要 等 内 容 则 是 
多 个 示例 ,经 过 SooPAT 网 站 中 IPC 号 检索 ,该 专利 的 
IPC 分 类 号 包含 D06 (织物 等 的 处 理 ;洗涤 ;其 他 类 不 
包括 的 柔性 材料 ) .B32( 层 状 产品 ) .C08 (有 机 高 分 子 
化 合 物 ;其 制备 或 化 学 加 工 ; 以 其 为 基 料 的 组 合 物 ) 等 ， 
而 通过 专家 对 专利 中 各 个 示例 的 语义 分 析 , 可 以 发 现 
该 包 中 至 少 存在 一 个 D06 .B32 、C08 的 IPC 分 类 号 的 
nup 

通过 上 述 的 描述 ,可 以 联想 到 将 MIML 机 器 学 习 
模型 运用 到 专利 文本 的 IPC 分 类 号 的 确定 中 来 。 要 通 
过 MIML 模型 进行 专利 分 类 ,首先 对 已 有 IPC 分 类 号 
的 专利 包 进 行 训练 ,然后 运用 学 习 好 的 模型 对 未 知 分 
类 号 的 专利 数据 进行 IPC 分 类 号 预测 ,从 而 对 未 知 IPC 
分 类 号 的 专利 进行 分 类 。 
2.2 MIML 学 习 模型 的 数学 描述 

多 示例 多 标签 学 习 模 型 基于 多 标签 学 习 以 及 多 示 
例 学 习 , 它 是 一 种 较为 一 般 的 表现 形式 ,包括 了 单 示 例 
单 标签 学 习 多 示例 单 标签 学 习 . 单 示例 多 标签 学 习 的 
各 种 情况 ,以 上 3 种 学 习 模 型 可 以 由 多 示例 多 标签 学 
习 退 化 得 到 ,因此 ,多 示例 多 标签 学 习 具 有 普遍 性 、 完 
整 性 等 特点 。 

MIML 的 数学 形式 可 以 表示 为 : 令 X 表示 示例 空 
间 ,Y 表示 标签 空间 ,可 以 通过 数据 集 { (X,Y ),(X%,， 
Yy) ,…, (X, Yn) | 训练 获得 函数 f:2* 2^, Hor x, 
是 一 个 包 , 用 来 描述 一 个 真实 对 象 ,其 由 一 组 示例 | x ， 
Xas Xn x; EX(j=1,2,…,n) 组 成 ,而 7 表示 一 组 
示例 所 对 应 的 标签 [ya ,yoy… Yal Ya eY(k=1,2,…， 
1,)。 其 中 ,n 为 描述 第 i 个 真实 对 象 的 示例 个 数 , 为 
第 i 个 真实 对 象 的 标签 个 数 。 
2.3 MML 学 习 模型 的 介绍 

MIML 学 习 模 型 因 其 适用 性 并 经 过 数 十 年 的 发 展 ， 
已 取得 非常 好 的 理论 延伸 ,其 理论 上 的 创新 主要 集中 
在 分 类 器 的 学 习 方 法 上 。MIML 学 习 模 型 的 类 型 主要 
有 :第 一 类 是 基于 正则 化 的 思路 ”" ,该 思路 需要 确 
立 优化 模型 和 约束 条 件 ,并 在 此 基础 上 进行 求解 ;第 二 
类 是 基于 退化 策略 的 思路 '“ ,该 思路 主要 以 多 示例 或 
者 多 标签 学 习 为 桥梁 ,将 MIML 问题 退化 成 传统 监督 
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表 1 MIML 结构 :以 专利 文本 为 例 
专利 包 中 的 示例 具体 内 容 通过 专家 判断 所 属 IPC 分 类 号 
专利 名 称 。 ”一 种 环保 聚氨酯 革 .制备 方法 及 其 制品 C08( 有 机 高 分 子 化 合 物 ;其 制备 或 化 学 加 
工 ;以 其 为 基 料 的 组 合 物 ) 

专利 摘要 。 一 种 环保 聚氨酯 革 , 包 括 超 纤 无 纺 布 \ 覆 盖 在 所 述 无 纺 布 上 的 底层 ,以 及 覆盖 在 所 述 底 层 上 ”D06( 织物 等 的 处 理 ; 洗 淋 ;其 他 类 不 包括 的 
的 面 层 . 聚 毛 乙 烯 发 泡 层 ,水 性 粘 接 层 , 半 聚 氨 酯 革 半 成 品 发 泡 压 花 后 ,采用 三 版 表 处 机 进 ”和 柔性 材料 ) 
行 表面 处 理 , 水 性 表 处 剂 的 上 浆 量 为 40 - 60g/m? ,干燥 温度 和 时 间 分 别 为 140 - 150% ,60 ”B32( 层 状 产 品 ) 
-90s, 表 处 后 的 革 坯 经 揉 纹 干燥 . 量 尺 后 即 得 成 品 ,所 述 面 层 中 包括 4 层 涂 层 ,分 别 为 : 粘 


zzzi 
2h 


` 第 一 中 间 层 .第 二 中 间 层 .表面 层 


A/Z 
专利 说 明 书 ”本 发 明 涉及 人 工 皮革 和 领域 ,具体 涉及 一 种 环保 聚氨酯 革 ,制备 方法 及 其 制品 。 DOG (织物 等 的 处 理 ; 洗 涤 ; 其 他 类 不 包括 的 
本 发 明 解决 的 技术 问题 在 于 ,提供 一 种 环保 聚氨酯 革 ,从 源头 消除 有 机 溶剂 污染 ,节约 有 机 柔性 材料 ) 
溶剂 资源 ,消除 安全 隐患 ,改善 工作 环境 ,提升 了 半 PU 革 的 生态 等 级 和 国际 市 场 竞争 力 。 C08( 有 机 高 分 子 化 合 物 ;其 制备 或 化 学 加 
采用 水 性 材料 替代 溶剂 型 材料 从 源头 消除 有 机 溶剂 造成 的 环境 污染 ,节省 大 量 有 机 溶剂 资 ” 工 ;以 其 为 基 料 的 组 合 物 ) 
源 ,消除 了 火灾 隐患 ,显著 改善 劳动 者 工作 环境 ,有 利于 行业 的 可 持续 发 展 。 
水 性 材料 替代 溶剂 型 材料 ,满足 了 欧盟 生态 半 PU 革 要 求 ,提高 了 半 PU 革 产 品 生态 等 级 和 
国际 市 场 浣 争 力 
专利 权利 要 求 书 ”一 种 环保 聚氨酯 革 , 包 括 超 纤 无 纺 布 覆盖 在 所 述 无 纺 布 上 的 底层 ,以 及 覆盖 在 所 述 底层 上 的 ” D06( 织 物 等 的 处 理 ; 洗 涤 ; 其 他 类 不 包括 的 
而 层 、 聚 氧 乙 烯 发 泡 层 .水 性 粘 接 层 , 其 特征 在 于 : 半 聚 氨 酯 革 半 成 品 发 泡 压 花 后 .采用 三 版 表 ”柔性 材料 ) 
q= 处 机 进行 表面 处 理 ,水 性 表 处 剂 的 上 浆 量 为 40 - 60g/m?, FHR ERU SE FR] AA 140- ”B32( 层 状 产 品 ) 
> 150*C ,60 - 90s , 表 处 后 的 革 坯 经 揉 纹 干燥 、 量 尺 后 即 得 成 品 ,所 述 面 层 中 包括 4 层 涂 层 C08( 有 机 高 分 子 化 合 物 ;其 制备 或 化 学 加 
工 ;以 其 为 基 料 的 组 合 物 ) 


沙 当 问题 ;第 三 类 则 是 借助 其 他 方法 解决 MIML 问题 ， 
PEN .梯度 下 降 算法 "等 解决 分 类 和 优 


cms 原理 


化 问题 。 本 文 列举 部 分 经 典 的 MIML 学 习 模 型 进行 介 
绍 与 实验 ,如 表 2 所 示 : 


X2 各 种 MML 学 习 模 型 的 简单 介绍 


优 缺 点 


Gy C 基于 正则 化 以 及 最 大 ”为 每 个 类 别 都 假设 一 个 线性 模型 ,学习 任务 被 表述 为 二 ”直接 利用 了 示例 与 标签 之 间 的 联系 ,不 会 遗漏 信息 ， 
N 化 间隔 策略 次 规划 (QP) 问 题 ,并 以 对 偶 形 式 实现 优化 过 程 太 多 导致 算法 效率 不 高 ,特别 是 在 训练 集 数 
© 量 较 多 的 情况 下 
[mm 基于 退化 策略 将 多 示例 多 标签 转化 为 多 示例 单 标签 ,利用 Boosting 方 ” 算法 简单 ,但 是 在 转化 过 程 中 会 遗漏 相关 信息 
sr 法 对 转化 得 到 的 多 示例 样本 进行 求解 从 而 转化 为 传统 
m 的 监督 问题 进行 求解 
Ersvwc4 基于 退化 策略 将 多 示例 多 标签 转化 为 单 示例 多 标签 ,利用 SVM 对 转 ”算法 简单 ,时 间 效率 高 ,但 是 在 转化 过 程 中 会 遗漏 相 
© 化 得 到 的 多 标签 问题 进行 分 析 从 而 转化 为 传统 的 监督 ” 关 信 息 
c 问题 进行 求解 
oes 基于 径 向 基 (RBF ) 神 ”输入 层 是 包含 示例 的 包 , 隐 层 是 包 聚 类 之 后 的 聚 类 中 直接 建立 示例 和 标签 之 间 的 联系 ,但 是 当 训练 数据 有 
经 网 络 心 ,通过 是 误差 平方 和 最 小 化 的 方法 来 优化 隐 层 与 输出 ”噪声 或 不 易 识别 时 ,会 导致 网 络 性 能 的 整体 误差 增 大 
© 层 的 权 值 矩阵 
MIMLNN US) 基于 反 向 传播 ( Back- ”包含 两 个 阶段 多 层 感知 器 ( Multilayer Pereeptron, MLP), 直接 建立 示例 和 标签 之 间 的 联系 ,并 且 考 虑 到 标签 与 
propagation, BP) 神经 ”并 基于 反 向 传播 算法 训练 MIML 模型 


网 络 


MIML 机 器 学 习 模 型 已 经 被 广泛 用 于 文本 分 类 
rp 7? ,在 MIML 研究 中 最 常用 的 是 Reuters - 21578 
文本 数据 ” ,其 主要 作为 标准 测试 数据 集 被 用 于 
MIML 模型 评价 中 ,该 数据 文本 分 类 数据 集 包含 2 000 
个 与 7 个 标签 关联 的 文档 ,每 个 包 对 应 一 个 文档 ,通过 
滑动 窗口 技术 将 文档 分 割 成 多 个 示例 ,示例 总 数 为 
7 119 个 ,采用 词 袋 表示 法 提取 243 维特 征 向 量 表示 示 
filo Y. Yang 4E" 建立 WKG Game-Hub, ,将 MIML 用 
T PIERII ff EDK rf, ERER EERE” 
游戏 中 心 收集 ,由 13 750 篇 文章 组 成 ,共有 1 744 个 概 
念 标签 。 总 体 来 说 , 目前 还 尚未 有 文献 将 MIML 学 习 
模型 用 于 专利 文本 的 分 类 中 。 


标签 之 间 的 相关 性 ,但 是 算法 中 需要 提前 确定 多 个 参 
2.4 模型 效果 评估 指标 

MIML 模型 的 学 习 效 果 评 佑 一 般 通 过 Average pre- 
cision , Hamming Loss , Ranking Loss , One Error , Coverage , 
Training time( 训练 时 间 ) 等 6 个 指标 对 两 个 未 知 的 参 
数 进行 确定 以 及 之 后 的 性 能 评价 ” ,其 中 , Average 
precision 为 分 类 的 准确 率 ,Training time 为 训练 MIML 
模型 所 耗费 的 时 间 。 

Hamming Loss 指标 反映 的 是 样本 在 某 一 个 标签 上 
的 误 分 类 程度 ,包含 两 个 情况 ,一 个 是 相关 标签 没有 出 
现在 预测 的 标签 集合 , 另 一 个 是 无 关 标 签 出 现在 预测 
的 标签 集合 中 ,因此 ,该 指标 取 值 越 小 则 学 习 模 型 越 
优 。 其 计算 公式 如 下 : 
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Hamming loss = Y 192 公式 (1) 
其 中 ,m 代表 样本 个 数 ,MM 代表 所 有 标签 的 总 个 
数 ,7 代表 样本 i 实际 标签 的 个 数 ,2, 代表 样本 i 预测 
标签 的 个 数 ,A 表 两 个 集合 的 异 或 操作 。 
Ranking Loss 评价 指标 用 于 评价 在 样本 的 标签 排 
序 序 列 中 出 现 排序 错误 的 数值 ,在 排序 序列 中 无 关 标 
签 排序 优先 于 相关 标签 ,同样 的 ,该 指标 取 值 越 小 则 学 
习 模 型 越 优 。 其 计算 公式 如 下 : 


. l. < 1 
Ranking Loss = z 2174 IYAIYI [| Oy) lf Cats 


yi) SfGx Qn) EY, * Y) 公式 (2) 
Hep Y, d Y, 相对 于 所 有 类 别 标签 集合 的 补 集 。 
Iag) HKE KA, 3 Ind x 的 标签 y 的 置信 度 。 
SOne Error 评价 指标 是 用 于 评价 样本 标签 排序 集合 
了 潮 E 在 最 前 面 的 标签 不 属于 相关 标签 集合 的 指标 ,该 


E error — E RON [arg,.y maxf(x,,y) ] &Y,] 
e ZAG) 
CSCoverage 评价 指标 用 于 评价 在 样本 的 标签 排序 集 
爸 璋 ,遍历 所 有 相关 标签 需要 的 搜索 深度 ,该 指标 取 值 
则 学 习 模型 越 优 。 其 计算 公式 如 下 : 


| 

L s 
P»  Covrage- — Yr, max,,, rank,, p -1 
= m 


X 公式 (4) 
Cranky, ,返回 由 (x,. ) 按 降序 排列 的 标签 y 的 秩 。 
3 全 实验 结果 与 分 析 


3.1 实验 数据 与 实施 流程 
本 文 从 上 海 知 识 产 权 公 共 服 务 平台 的 中 国 专 利 数 


据 库 中 选取 水 处 理 技 术 领 域 专利 文献 作为 语料库 ,这 
些 专利 数据 主要 包含 分 类 号 标题、 摘要、 主权 项 等 内 
容 。 根 据 Soopat 网 站 中 的 SooPAT IPC 检索 结果 ,专利 
的 主要 分 类 号 以 及 对 应 主题 分 别 是 : BOLD (分 离 ) ; 
C02F( 水 .废水 污水 或 污 泥 的 处 理 ) ;D06( 织 物 等 的 处 
理 洗涤 其 他 类 不 包括 的 柔性 材料 ) ,每 类 专利 文献 
250 篇 ,其 中 有 60 篇 左右 的 专利 包含 有 BO1D、C02F、 
D06 中 两 个 及 以 上 的 分 类 号 。 

本 实验 的 方法 流程 如 图 2 所 示 , 包 含 数据 库 构 建 、 
文本 预 处 理 与 向 量化 .模型 训练 与 参数 调节 、 模 型 分 类 
效果 评估 等 方面 。 具 体 的 数据 库 构 建 包 括 对 含有 标签 
的 专利 数据 按照 一 定 的 比例 进行 训练 集 和 测试 集 选 
取 ; 文 本 预 处理 和 向 量化 则 包括 分 词 . 停 用 词 .词性 标 
注 后 删除 某 些 词性 的 词语 ,建立 基于 TF-IDF 的 向 量 空 
间 模 型 ;模型 训练 与 参数 调节 则 是 选取 本 文 第 二 节 介 
绍 的 经 典 MIML 模型 ,配合 参数 调节 的 方法 ,达到 该 模 
型 的 最 优 效果 ;模型 评估 则 是 对 模型 进行 效果 评估 , 主 
要 指标 包含 Average precision, Ranking Loss, Hamming 
Loss „One Error , Coverage 等 上 文 介绍 的 指标 。 

将 每 一 篇 专利 看 作 一 个 包 , 专利 的 标题 和 摘要 当 
作 包 中 的 两 个 示例 。 具 体 的 , 共 选 取 200 篇 专利 文本 
作为 实验 数据 ,其 中 具有 多 个 标签 的 包 占 比 约 为 
30% ,平均 每 个 包 有 1. 29 个 标签 。 在 分 词 阶段 ,本 实 
验 采 用 jieba 中 文 分 词 的 . NET 版 本 并 通过 精确 分 词 模 
式 来 实现 ,在 特征 选择 阶段 ,选取 了 前 1 000 个 TF » 
IDF 值 对 应 的 特征 词 作为 数据 的 索引 词 ” 。 本 文 实验 
所 用 处 理 器 参数 为 :Intel(R) Core( TM) i5 -7500 CPU 
@3.40GHz, 内 存 4GB ,64 位 操作 系统 ,基于 x64 处 理 
器 ,实验 所 用 的 软件 是 Matlab R2018a。 


7 E5 
数据 库 构建 Lieu 5 
向 量化 
分 词 、 去 除 停 用 
词 、 词 性 标注 后 删 
除 某 些 词 性 的 词语 


有 标签 的 专利 数据 


基于 TF-IDF 的 
向 量 空间 模型 


| 


模型 训练 模型 分 类 效果 
与 调 参 评估 
M3MIMTL Average precision 
MIMLBOOST —— Hamming Loss 
MIMLSVM Ranking Loss 
MIMLRBF One Error 
MIMLNN Coverage 


2 方法 实施 流程 
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3.2 分 类 结果 与 分 析 

为 了 验证 各 个 模型 的 分 类 效果 以 及 模型 的 适用 
性 ,本 文 拟 采 用 10 次 N 折 交 又 验 证 的 方法 ,N 的 取 值 
为 2-10, 并 且 计 算 10 次 测试 的 平均 值 作为 指标 参数 。 
为 了 获得 更 好 的 实验 效果 ,综合 各 种 文献 数据 以 及 实 
验 数据 ,将 MIML 各 种 的 模型 中 的 实验 参数 调整 如 下 : 
M3 MIML 中 线性 模型 选择 SVM 线性 判断 模型 ,损失 也 
数 阔 值 为 0.01,MIMLBOOST 同样 选择 SVM 线性 判断 
模型 ,循环 次 数 rounds 设置 为 100, MIMLSVM 选择 


RI 各 个 MIML 模型 通过 


SVM 中 的 RBF 判断 模型 ,比例 参数 ratio 设置 为 0.2， 
MIMLRBF 则 将 比例 参数 ratio 设置 为 0.1,MIMLNN 的 
网 络 判断 冰 值 设置 为 0.5。 综 合 考虑 到 N 的 不 同 取 值 
下 指标 的 变化 情况 ,选取 N =3 4.5 的 评价 结果 显示 并 
讨论 ,各 个 MML 模型 在 水 处 理 中 文 专利 的 分 类 结果 
分 析 如 表 3 - 365 所 示 , 评 价 指标 包括 Average preci- 


sion, Ranking Loss, Hamming Loss, One Error , Coverage , 


Training time, 


三 折 交 义 验 证 的 方法 的 结果 


模型 名 称 Aver precision Ranking Loss Hamming Loss One Error Coverage Training time/s 
M3MIML 0.817 5 +0. 004 0.232 8 +0. 009 0.2644 +0 0.327 6 +0. 017 0.7241 +0 10.21 x1. 110 
MIMLBOOST 0.800 6 +0. 003 0.232 2 x0. 036 0.291 7 x0. 006 0.392 9 x0 0.696 5 +0. 054 3.364 «1.186 


0.809 9 +0. 003 0.210 6 +0. 004 


0.828 8 +0. 010 0.219 2 x 0. 005 


0. 791 7 x0.024 0.267 9 +0. 071 


0.269 1 +0. 005 


0. 262 3 x0. 048 


0.333 3 x0.071 


0.386 1 +0. 006 0.649 1 +0. 006 0.188 6 +0. 008 


0.333 7 x0. 023 0.823 3 x0. 073 0.382 8 x0. 055 


0.410 7 +0. 054 0.750 0 x0. 107 0.272 1 x0. 008 


X4 各 个 MIML 模型 通过 四 折 交 叉 验 证 的 方法 的 结果 


型 名 称 Aver precision Ranking Loss Hamming Loss One Error Coverage Training time/s 
t 
| 3MIML 0.842 8 +0.010 0.263 7 +0. 006 0.232 2 +0. 018 0.256 5 +0. 029 0. 852 3 +0. 005 19.25 «0. 781 
( 
0.781 4 €0.016 0.356 1 +0. 023 0.256 0 € 0.031 0.392 9 +0 0.417 8 +0. 037 2.551 +0. 081 


0.831 1 +0.014 0.209 9 +0. 028 


0.888 9 +0. 036 0.154 8 +0. 048 


0.756 0 +0. 060 


0.313 9 +0. 044 


0.310 3 +0. 007 


0.230 1 +0. 040 


0.325 4 +0. 008 


0.349 6 +0. 031 0. 559 0 +0. 006 0.378 1 +0. 044 


0.214 3 +0. 071 0. 642 9 +0. 024 0.484 4 +0. 016 


0.488 1 +0. 012 0. 885 3 +0. 067 0.280 4 +0. 002 


R5 各 个 MIML 模型 通过 五 折 交 叉 验 证 的 方法 的 结果 


EZ: Aver precision Ranking Loss Hamming Loss One Error Coverage "Training time/s 
M3MIML 0. 808 8 +0. 020 0.264 7 x0 0.284 3 x0. 010 0.353 0 +0. 059 0.8535 x0 16.39 x 3.984 
MIMLBOOST 0. 769 6 x 0.010 0.338 3 +0. 044 0.382 4 +0. 069 0.441 4 +0. 030 1 x0.059 3.684 x 0.108 
MIMLSVM 0.821 1 x0.002 0.205 9 x0. 030 0.294 1 x0.020 0.3529 +0 0.617 7 +0. 009 0.445 3 +0. 008 
MIMLRBF 0.840 7 x0.017 0.220 6 +0. 044 0.303 9 +0. 001 0.323 5 x0. 030 0.676 5 +0. 206 0.453 2 +0. 031 
MIMLNN 0. 790 9 x 0.022 0.235 3 x 0.029 0.284 3 x 0.049 0.382 4 € 0.029 0.794 1 x0.029 0.272 7 x0.001 


表 3 - 表 5 中 粗 体 的 数据 为 N 折 交 叉 验 证 下 的 最 
优 指标 ,通过 分 析 可 以 得 到 以 下 结论 : 

(1)MIML 模型 大 多 能 准确 地 对 专利 进行 分 类 ,所 
有 模型 的 分 类 精确 度 都 在 8096 左右 ,这 说 明 MIML 学 
习 模 型 具有 较 高 的 准确 性 ,因此 适用 于 确定 中 文 专利 
IPC 号 的 工作 。 

(2) 随 着 N 的 增加 ,各 个 模型 样本 的 训练 时 间 总 
体 都 在 增加 ,这 是 由 于 训练 样本 的 增加 所 致 ,但 是 其 余 


的 性 能 指标 并 未 随 着 N 的 增加 而 变 优 。 总 体 来 说 ,各 
个 模型 都 在 四 折 交 叉 验 证 的 时 候 取得 较 好 的 指标 参 
数 ,这 可 能 是 因为 若 N 小 于 4 的 时 候 ,训练 样本 的 数量 
不 多 ,未 能 充分 进行 模型 的 训练 ;而 当 N 大 于 4 时 , 训 
练 样本 过 多 ,容易 引起 模型 的 过 拟 合 现象 ,从 而 导致 模 
型 的 泛 化 能 力 变 差 。 

(3) 从 模型 选择 上 考虑 时 ,发 现 选取 不 同 的 N 折 
交叉 验证 方法 时 ,MIMLRBF 模型 的 Average precision 
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总 是 最 高 的 ,而 且 其 他 指标 虽然 并 没有 都 是 最 优 ,但 是 
与 最 优 的 指标 相差 并 不 多 , 且 训 练 效率 仅 次 于 
MIMLNN 模型 ,明显 好 于 M3MIML MIMLBOOST 模型 。 
MIMLRBF 模型 由 于 使 用 神经 网 络 结构 进行 问题 求解 ， 
优势 在 于 在 输入 层 与 隐 含 层 之 间 的 聚 类 过 程 和 隐 含 层 
与 输出 层 的 优化 过 程 中 ,示例 和 标签 之 间 的 连接 都 是 
明确 的 ,实践 也 说 明了 MIMLRBF 能 准确 .快速 地 解决 
问题 。 

综 上 所 述 ,MIML 模型 较 之 于 传统 的 监督 学 习 模型 
有 着 较 大 的 优势 ,因为 相 较 于 传统 分 类 模型 只 考虑 单 
示例 单 标签 的 思想 ,MIML 模型 既 充 分 考虑 到 了 专利 文 
本 的 多 示例 的 结构 属性 ,又 考虑 了 专利 的 多 标签 属性 ， 
可 以 多 角度 地 选取 数据 作为 专利 文本 分 类 的 依据 ,分 
类 的 结果 自然 也 会 更 加 精确 。 类 似 地 ,本 文 也 可 以 将 
RERE 说明书 等 专利 信 息 作为 示例 进行 训练 ,而 


中 ,在 不 知道 训练 集 测试 集 的 具体 情况 时 ,需要 提前 
确定 MIML 模型 的 部 分 参数 ,因此 ,其 分 类 的 准确 性 、 
效率 将 会 受到 影响 。 

针对 上 文 的 实验 与 分 析 , 今 后 还 要 对 以 下 问题 进 
行 研究 :本 实验 选取 的 专利 测试 样本 有 限 ,并 且 这 些 
专利 对 应 的 标签 个 数 很 少 ,各 是 在 实际 情况 中 ,需要 进 
行 标注 的 专利 数量 庞大 ,有 时 还 对 应 更 多 的 标签 ,如 何 
选择 专利 文本 的 特征 、 分 词 方法 和 MIML 模型 是 研究 
的 关键 方向 。 凶 本 实验 将 只 选取 标题 和 摘要 作为 示例 
进行 训练 ,但 是 专利 文本 中 说 明 书 和 权利 要 求 书 也 存 
在 这 大 量 技术 信息 ,如 何 将 这 些 内 容 放 进 MIML 模型 
中 ,并 寻找 哪些 示例 的 组 合 拥有 较 高 的 分 类 准确 率 也 
是 需要 思考 的 问题 。@) 传 统 MIML 模型 的 参数 繁多 且 
难以 确定 ,并 且 参 数 可 能 对 算法 分 类 准确 率 的 影响 相 
当 大 ,如 何 确定 一 个 快速 ,精确 的 参数 估计 方法 ,并 将 


HØNE ERA N 折 交 叉 验证 方法 对 实验 结果 的 
影星 ,从 而 可 以 获得 更 加 科学 的 训练 数据 和 测试 数据 
的 至 比 。 实 践 证 明了 四 折 交 叉 验 证 时 的 分 类 效果 最 
好 即将 训练 集 比例 设置 为 75% ,将 测试 集 比例 设置 
将 23% ;并 且 推 荐 使 用 MIMLRBF 模型 进行 中 文 专利 
的 事 类 ,也 提示 要 选择 示例 和 标签 之 间 具 有 明确 连接 
的 入 型 进行 中 文 专利 的 分 类 工作 。 


它 本 文 充分 考虑 到 专利 文本 的 结构 特点 以 及 其 固有 
的 多 标 签 属性 ,将 MIML 机 器 学 习 模型 运用 在 中 文 专 
利 隐 分 类 中 ,实验 指标 表明 MIML 模型 能 较为 准确 忆 
速 地 实现 中 文 专利 的 分 类 ,使 得 大 规模 进行 自动 的 专 
FI IPC 分 类 号 的 确定 成 为 可 能 ,大 大 减少 了 人 工 标注 
的 效率 低下 . 受 标注 人 知识 结构 影响 等 矣 端 。 只 需 少 
量 的 样本 数据 ,就 能 实现 大 规模 的 专利 分 类 ,是 人 工 智 
能 技术 在 图 书 情报 领域 内 的 积极 尝试 。 在 此 也 对 
MIML 模型 运用 的 优势 与 不 足 进 行 总 结 与 展望 
QDMIML 模 型 能 适用 于 实际 专利 分 类 现状 ,特别 是 只 有 
少量 标签 数据 的 情形 下 ,本 文 提 出 的 思路 可 以 拓展 专 
利 分 类 的 应 用 范围 ,辅助 确定 大 量 未 标注 专利 的 多 个 
标签 的 类 别 。@@ 通 过 MIML 模型 进行 中 文 专利 的 分 类 
实验 可 以 得 知 ,很 多 MIML 模型 的 训练 效率 都 非常 高 ， 
这 也 为 高 效 、 准 确 地 专利 分 类 提供 了 思路 。 回 实验 中 
MIML 模型 已 经 提前 通过 实验 的 方法 确定 了 实验 参数 ， 
因此 专利 分 类 的 结果 较为 准确 。 但 是 如 果实 际 情况 


它 广 泛 应 用 于 专利 分 类 的 研究 也 是 下 一 步 需 要 解决 的 
问题 。 
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SQ Abstract: | Purpose/significance | In order to achieve rapid classification in a large number of Chinese patents 


(S meet the requirements of patent examination and intelligence analysis. | Method/process | Combined with the in- 


ent format of patent text and the fact that there are multiple classification numbers, this paper applied multi-in- 


Tince multi-label learning to automatic patent classification. Firstly, several classical multi-instance multi-label 


learning methods were introduced, and then these methods were applied to determine IPC number of Chinese patent. 


| Result/conclusion | Tt is experimentally demonstrated that the multi-instance multi-label learning methods are suit- 


able for patent automatic classification, according to average precision, hamming loss, ranking loss, one error, cov- 


erage, training time, it is found that MIMLRBF can be used to determine the IPC number of Chinese patents quickly 


and accurately, which provides a new perspective for classifying large-scale patents. 
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